\chapter{概率的几个概念}

在进行试验或观察自然现象时，会发现以下三种情况：
\begin{enumerate}[(1)]
	\item 必然事件：在一定条件下必然会发生的事件。
	\item 不可能事件：在一定条件下不可能发生的事件。
	\item 随机事件：在一定条件下可能会发生也可能不发生的事件。
\end{enumerate}

概率理论就是研究随机现象统计规律性的工具。

对于各类事件之间的关系可归纳为以下几种\cite{实用数学手册}：
\begin{enumerate}[(1)]
	\item 包含和相等：如果事件A发生必然导致事件B发生，则称事件B包含事件A，记为$A\subset B$或$B\supset A$。如果$A\subset B$和$B\subset A$同时成立，则称A与B相等，记为$A=B$。
	\item 和：表示事件A和事件B中至少有一个发生的事件称为事件A和事件B的和，记为$A\cup B$。
	\item 积：表示事件A和事件B同时发生的事件称为事件A和事件B的积，记为$A\cap B$或$AB$。
	\item 互不相容：用通常表示空集的符号$\phi$表示不可能事件，如果A和B不可能同时发生，用符号表示为$ A \cap B=\phi $，我们称A与B是互不相容事件。
	\item 互逆：用$\omega$表示必然事件，如果A和B一定有一个事件发生，但是不可能同时发生，用符号表示为$A\cup B=\omega$且$A \cap B=\phi$,我们称A与B是互逆事件，记为$B=\overline{A}$或$A=\overline{B}$。
	\item  差：事件A发生而事件B不发生的事件，我们称为事件A与事件B的差，记为$A-B$,显然$A-B=A\overline{B}$。
\end{enumerate}

\section{古典概率(Classical Probability )}
在古典概率中，我们称获得结果的过程为统计实验(statistical experiment)，统计实验所有可能的结果称为采样空间(sample space)，同时，我们期望样本空间中的每个结果具有同样的可能性。

当进行经典检验时，事件发生的概率将等于产生该事件的结果数量与该实验的可能结果总数之比（即样本空间的大小）。更具体地说，如果A是事件的名称，f是该事件在样本空间中发生的频率，N是样本空间的大小，$Pr[A]$表示A事件发生的概率：\footnote{这部分描述引自\url{http://www.milefoot.com/math/stat/prob-classical.htm}}
\[Pr[A]=\dfrac{f}{N}\]


古典概率严格的描述是\cite{实用数学手册}：
\begin{enumerate}
	\item 实验观察到的所有可能结果是有限的，记为$e_1,e_2,\ldots,e_n$。
	\item 结果两两互不相容，即$e_i \cap e_j=\phi,i\neq j,i,j=1,2,\ldots,n$，称$e_1,e_2,\ldots,e_n$为基本事件或样本点，所有样本点组成的集合称为样本空间$\Omega$。
	\item 各个基本事件发生的可能性相等。
\end{enumerate}

\vspace{1cm}
\begin{example}
	掷一颗骰子，每掷一次有六中可能，显示的点数分别为1,2,3,4,5,6,这些是基本事件，所以样本空间$\Omega={1,2,3,4,5,6}$，每一个结果的可能性(概率)为：\\
	\begin{center}
		\begin{tabular}{|c|c|}
			\hline 
			掷出的点数& 概率 \\ 
			\hline 
			1& $\frac{1}{6}$ \\ 
			\hline 
			2& $\frac{1}{6}$ \\ 
			\hline 
			3& $\frac{1}{6}$ \\ 
			\hline 
			4& $\frac{1}{6}$ \\ 
			\hline 
			5& $\frac{1}{6}$ \\ 
			\hline 
			6& $\frac{1}{6}$ \\ 
			\hline 
		\end{tabular} 
	\end{center}
    \par
    
    下面我们看看各种事件的概率。

	“点数为4”的事件我们记为“$x=4$”，$Pr[x=4]=\frac{1}{6}$。
	
	“点数大于4”的事件我们记为“$x>4$”，$Pr[x>4]=Pr[x=5]+Pr[x=6]=\frac{1}{3}$。
	
	“点数大于等于4”或者“点数不小于4”的事件我们记为“$x\geq 4$”，$Pr[x\geq 4]=Pr[x=4]+Pr[x=5]+Pr[x=6]=\frac{1}{2}$。
	
	“点数不等于4”的事件我们记为“$x\neq 4$”，$Pr[x\geq 4]=Pr[x=1]+Pr[x=2]+Pr[x=3]+Pr[x=5]+Pr[x=6]=\frac{5}{6}$。
	
	“点数大于等于2，小于等于5”的事件我们记为“$2\leq x\leq 5$”，$Pr[x2\leq x\leq 5]= Pr[x=2]+Pr[x=3]+Pr[x=4]+Pr[x=5]=\frac{4}{6}=\frac{2}{3}$。
	
	“点数为4或5”的事件我们记为“$x=4 or x=5$”，$Pr[x=4 or x=5]=Pr[x=4]+Pr[x=5]=\frac{1}{3}$。
	
	“点数为4和5”的事件我们记为“$x=4 and x=5$”，$Pr[x=4 and x=5]=0$，概率为0，是因为这个事件不可能发生。
	
\end{example}
\vspace{1cm}
1933年前苏联数学家柯尔莫哥洛夫在前人工作的基础上给出了概率的公理化定义，突破了古典概率中基本事件有限和基本事件可能性相等的局限。

\section{条件概率(Conditional Probability)}

\begin{definition}{条件概率(Conditional Probability)}{def-condpro}
	设A，B是一个随机试验采用空间中的两个事件，在B发生的情况下(且$Pr(B)\neq 0$) A发生的概率我们称为条件概率，记为$Pr(A|B)$,$Pr(A|B)=\dfrac{P(AB)}{P(B)}$。
\end{definition}

$Pr(AB)$表示事件A和B都发生，也可表示为$Pr(A\cap B)$。


\begin{definition}{独立事件(Independent events)}{def-indeve}
	对于事件A，B,如果$Pr(AB)=Pr(A)Pr(B)$,则称事件A和B是独立的。
\end{definition}

两事件独立，表示两事件的发生不会相互影响，对于独立我们有以下性质。


\begin{theorem}{全概率定理(Total Probability Theorem)}{theo-totalpro}
	如何$B_1,B_2,\ldots,B_n$是概率空间的一个划分，并且$Pr(B_i)\neq 0,i\in {1,\ldots,n}$,那么事件A在此采样空间中发生的概率：
	\[Pr(A)=\sum_{i=1}^{n}Pr(A|B_i)Pr(B_i)\]
\end{theorem}


\begin{theorem}{贝叶斯定理(Bayes's Theorem)}{theo-bayes}
	对于事件A，B,如果$Pr(B)\neq 0$，那么：
	\[Pr(A|B)=Pr(A)\times \dfrac{Pr(B|A)}{Pr(B)}\]
\end{theorem}

贝叶斯定理有着非常广泛的应用，有时候获得的结果甚至与直觉相反。
\vspace{1cm}
\begin{example}\protect \footnote{引自\url{http://math.oxford.emory.edu/site/math117/bayesTheorem/}}
	假设对患有某种疾病的人诊断测试，给出阳性结果的概率为0.95，应用于未患有该疾病的人，给出（假）阳性结果的可能性为0.10。假设估计有0.5\%的人口患有这种疾病。在一次随机筛查中，爱丽丝的疾病检测呈阳性。显然，在筛查之前，在没有任何其他信息的情况下，爱丽丝患上这种疾病的概率为0.005。一旦筛查完成，我们现在又知道爱丽丝检测呈阳性，她患这种疾病的可能性会如何变化？也就是说，根据这一新信息，爱丽丝现在患这种病的概率是多少？\par
	当被问及这个问题时，许多人会回答“95\%”，这个回答是不正确的。请记住，前面提到的95\%是指一个人在患有疾病的情况下检测呈阳性的概率。我们想要相反的情况。我们希望在检测呈阳性的情况下，一个人患上这种疾病的概率。\par
	更简洁地说，如果A是患疾病的事件，B是检测阳性的事件，我们知道$Pr(B|A)$，我们想计算$Pr(A|B)$。\par
	用树的形式将这些概率以可视化的形式表示出来是有用的，如如\ref{fig:bayes-usecase1}所示。\par
	\begin{figure}[htbp]
		\centering
		\includegraphics[width=0.7\textwidth]{bayes-usecase1.png}
		\caption{贝叶斯定理在流行病筛查中的应用}
		\label{fig:bayes-usecase1}
	\end{figure}
    为了找到概率$P(A|B)$，我们将重点放在已知B为真的情况下（以绿色显示），并考虑A在这个缩小的空间内发生的可能性有多大（以黄色显示）。\par
    当然这个结果就是使用了贝叶斯定理：
    \[Pr(A|B)=Pr(A)\times \dfrac{Pr(B|A)}{Pr(B)}\]
    对于我们这个例子，A是“得病的人”，B是“测试为阳性”：
    \[Pr(\text{得病的人|测试为阳性}) = \dfrac{0.005\times 0.95}{Pr(B)}\]
    在图中$\overline{A}$表示“没有得病的人”，$\overline{A}$和A构成采用空间的一个划分，所以有
    \[Pr(B)=Pr(AB)+Pr(\overline{A}B)=0.005\times0.95+0.995\times0.10\]
    最后我们可以算得：
     \[Pr(\text{得病的人|测试为阳性}) \approx 0.0456\]
     人们可能会注意到，如果一个人的检测结果呈阳性，那么患上这种疾病的可能性是多么的小，这与直觉相反。这源于这种疾病在人群中的罕见性。即使是95\%的患有这种疾病的人，与10\%的不患有这种病的人相比，仍然很小。
\end{example}
\vspace{1cm}

\section{随机变量(Random Variable)}
我们通过一个例子引入随机变量。

\vspace{1cm}
\begin{example}\protect \footnote{例子来自\url{http://web.mit.edu/neboat/Public/6.042/randomvariables.pdf}}
	投掷三枚独立硬币的,设C为出现的正面(head,简记为H)个数。如果三枚硬币都是正面或反面(tail,简记为T)，则设M＝1，否则设M＝0。现在，每次试验都唯一地决定了C和M的值。例如试验结果为正面、反面、正面，那么C＝2，M＝0。试验结果为反面、反面和反面，那么C=0，M＝1。实际上，C计数正面的数量，M表示所有硬币是否一致。
	
	我们可以将C和M卡成一个函数，其将采样空间映射为一组数。
	
	采样空间为:
	\[S=\{HHH,HHT,HTH,HTT,THH,THT,TTH,TTT\}\]
	
	那么C函数就是：\\
	\begin{center}
		\begin{tabular}{c|c}
			\hline 
			C(HHH)=3& C(THH)=2 \\ 
			\hline 
			C(HHT)=2& C(THT)=1 \\ 
			\hline 
			C(HTH)=2& C(TTH)=1 \\ 
			\hline 
			C(HTT)=1& C(TTT)=0 \\ 
			\hline 
		\end{tabular} 
	\end{center}
	\par
	同样，M函数是：\\
	\begin{center}
		\begin{tabular}{c|c}
			\hline 
			M(HHH)=1& M(THH)=0 \\ 
			\hline 
			M(HHT)=0& M(THT)=0 \\ 
			\hline 
			M(HTH)=0& M(TTH)=0 \\ 
			\hline 
			M(HTT)=0& M(TTT)=1 \\ 
			\hline 
		\end{tabular} 
	\end{center}\par
	函数C和M是随机变量的示例。一般来说，随机变量是其域为样本空间的函数。（值域(codomain)可以是任何东西，但我们通常使用实数的子集。）注意，“随机变量”这个名称用词不当；随机变量实际上是函数。
\end{example}
\vspace{1cm}



%\begin{definition}{概率密度函数(probability density funciton)}{def-prodenfun}
%	设$\mathbb{X}$​为一随机变量，若存在非负实函数$f(x) \geq 0$​，使对任意实数$a < b$​，有：
%	
%	\[P\{ a \leq x \leq b\} = \int_a^b {f(x)dx}\]
%	
%	​则称$\mathbb{X}$​为连续随机变量，$f(x)$​称为$\mathbb{X}$​的概率密度函数，简称概率密度或密度函数。
%\end{definition}
%
%概率密度函数具有如下性质：
%\begin{enumerate}
%	\item 非负性：$f(x)\geq 0$。
%	\item 规范性：$\int_{-\infty}^{+\infty}{f(x)dx}=1$
%\end{enumerate}

%下面我们看看另外一个概率密度函数定义。

\subsection{离散随机变量}

\begin{definition}{离散型随机变量(Discrete Random Variable)}{def-disrandvar}\cite{PrincetonProbReadings}
	离散型随机变量$\mathbb{X}$就是定义在一个离散的结果空间$\Omega$(这意味着$\omega$是有限的活至多可数的)上的实数值函数，具体说，我们为每个元素$w\in \Omega$指定了一个实数$\mathbb{X}(w)$。
\end{definition}

我们在此讲义中用$\mathbb{X}$表示随机变量。用$Pr[\mathbb{X}=x]$表示随机变量取$x$的概率，如果随机变量在研究的问题中只有一个，我们可以简写为$Pr[x]$，对于任意$x\in X$，有$0\leq Pr[\mathbb{X}=x] \leq 1$，并且有$\sum_{x\in X}{Pr[\mathbb{X}=x]} =1$。

\begin{definition}{离散型随机变量概率密度函数(probability density funciton)}{def-prodenfun2}\cite{PrincetonProbReadings}
	设$\mathbb{X}$​为一随机变量，它定义在离散的结果空间$\Omega$上，那么$\mathbb{X}$的概率密度函数$PDF_{\mathbb{X}}$就是$\mathbb{X}$取某个特定值的概率：
	\[PDF_{\mathbb{X}}(x) =Pr(w\in \Omega:\mathbb{X}(w)=x)\]
	概率密度函数的值总是大于或等于0，并且和始终为1,即$\sum_{x\in \Omega}{PDF_{\mathbb{X}}(x)} =1$。
\end{definition}


\begin{definition}{离散型随机变量的累计分布函数(Cumulative distribution funciton)}{def-cumudisfun}
	设$\mathbb{X}$​为一随机变量，它定义在离散的结果空间$\Omega$上，那么$\mathbb{X}$的累计分布函数$CDF_{\mathbb{X}}$表示$\mathbb{X}$不超过某个特定值的概率：
	\[CDF_{\mathbb{X}}(x) =Pr(w\in \Omega:\mathbb{X}(w)\leq x)\]
\end{definition}

\begin{definition}{随机变量的联合概率(Joint Probability)和统计独立(Statistical independence)}{def-rndvarstaind}\cite{密码学原理与实践}
	设$\mathbb{X}$和$\mathbb{Y}$​分别是定义在离散的结果空间$\Omega$和$\Psi$上的随机变量，$\mathbb{X}$取x并且$\mathbb{Y}$​取y的概率，我们称为联合概率，记为$Pr(\mathbb{X}=x,\mathbb{Y}=y)$，在不引起误解的情况下，简记为$Pr(x,y)$。如果对于任意$x\in X,y\in Y$，都有$Pr(x,y)=Pr(x)Pr(y)$,则称随机变量$\mathbb{X}$和$\mathbb{Y}$​是统计独立的。
\end{definition}

